loading
Richtek

應對 AI 動態突波負載挑戰:RTQ1954 80V 熱插拔控制器


Mohammad Etemadrezaei | AN092 October 2025

Addressing Dynamic Transient AI Workloads: Introducing the <a href=RTQ1954 80V Hot Swap Controller">

隨著現代數據中心的電力需求持續攀升,其運作效率與可擴展性要求推動了模組化系統的發展,例如伺服器、擴充卡及輔助電路板皆需支援熱插拔功能。當模組元件故障時,能在不中斷運作的情況下更換,有助於減少停機時間與維修成本。本篇應用筆記將介紹立錡 RTQ1954 熱插拔控制器及其多階段過電流保護 (OCP) 設計,說明其如何在動態 AI 工作負載下提供可靠保護,同時實現高功率系統的散熱最佳化。

Example of AI Workload with Wide and Dynamic Transients

圖 1. AI 工作負載的動態突波範例



1. 熱插拔控制器的應用與挑戰

1.1 應用情境

熱插拔控制器通常應用於數據中心的模組化系統中,最常見的用途為電源輸入口(如圖 2 所示)。這類控制器具備三大功能:

1. 協助模組在電源線 (busbar) 帶電狀態下插拔。

2. 系統故障時提供保護。

3. 提供關鍵的電源與安全監控資訊。

為達成這些功能,熱插拔控制器會控制一個或多個外部通道元件,如 MOSFET(可視功率需求並聯使用)。

A Typical Application for a Hot Swap Controller in a Power Distribution Board

圖 2. 熱插拔控制器在電源分配板上的典型應用

1.2 應用挑戰

熱插拔控制器常見的保護情境之一,是在啟動或穩態運作過程中發生過電流事件。若為輸出短路且阻抗極低(接近接地),控制器會在數微秒內關閉 MOSFET,以避免過電流損壞系統。針對其他過電流情況,多數熱插拔控制器會在 MOSFET 關閉前,會在故障超時時間內 (fault timeout period) 對電流(或功率)進行限制。此類保護方式適用於負載曲線 (load profile) 穩定、無劇烈突波的情況。

現代 AI 應用所使用的 xPU 負載曲線具備寬範圍且動態的電流突波,並且持續時間變化大,並不像 CPU 負載曲線那樣具有明確規範。若僅以單一電流/功率限制值來做保護設定,容易產生誤判錯誤,因此需要:

1. 將電流限制門檻設定在高於預期的最大負載,並且/或

2. 延長故障容忍時間以容納突波電流。

提高電流限制雖然可讓突波通過,但也可能讓像 soft short 這類異常狀況無法被偵測;而延長故障超時時間則會增加 MOSFET 所承受的熱與電應力,有違其安全操作區域 (SOA) 限制。

With Single-Level Overcurrent Protection (I<sub>LIM</sub>), the Hot Swap Controller Faces Challenges in Properly Protecting Systems with AI Load Profiles

圖 3. 當只有單一電流限制保護 (ILIM) 時,面對 AI 的負載需求,熱插拔控制器將面臨如何正確保護系統的問題

1.3 解決方案

立錡 RTQ1954 熱插拔控制器透過多階段過電流保護 (OCP) 機制,有效應對 AI 動態負載保護挑戰。多階段 OCP 架構具備高度彈性,可依據不同負載曲線進行最佳化設計。本文將說明多階段 OCP 的優勢,並說明其如何應用於保護輸出功率達 8.5kW 的系統(如圖 4 所示負載曲線)。



2. 多階段 OCP 保護機制

RTQ1954 提供四個不同階段的快速且精準的過電流保護,能因應各種過電流負載狀況,如下圖所示。

Multi-Level OCP Setting for a Dynamic Load Profile with Multiple Steps of Various Durations

圖 4. 多階段 OCP 示意圖

Overcurrent Protection ΔVSNS Threshold (Voltage Across Sense Resistor) Fault Timer
OCP1 (Start-Up Only) 2mV Immediate
OCP2 10mV to 55mV (PMBus), 26mV, 37mV to 49mV, and 50mV (hardware) Set by CTIMER
OCP3 VOCP2 + 15mV 0.5ms
CB 50mV, 100mV, 200mV Immediate

啟動保護 OCP1: 針對啟動時可能出現的過大浪湧電流進行防護。

穩態運作保護 OCP2: 此保護等級應設於穩態負載之上,用於防範 soft short 或持續過載等狀況,保護容忍時間可透過 TIMER 腳位的電容設定。

穩態運作保護 OCP3: 允許高於預期的短時間過載脈衝通過,若持續時間超過 tBLANK(預設為 0.5ms),則會啟動保護機制。

斷路器保護 CB: 當發生極端過電流事件時(如短路),此保護機制可於微秒(us)內反應,是對嚴重故障的最終防線。

本應用範例所採用的系統參數如下:

Parameter Value
Input Voltage 50V
Average DC Current 170A
Average DC Power 8.5kW at 50V
OCP1 8A/Immediate
OCP2 200A/1.19ms timer
OCP3 260A/0.5ms timer
CB 400A/Immediate
Number of MOSFETs 6 x PSMN2R3-100SSE

2.1 啟動保護 OCP1

在啟動過程中,可透過 GATE 腳位對地的電容,實現軟啟動並限制 VOUT 上升斜率與輸出電容的浪湧電流。假設輸出電容損壞或短路至地,將會導致浪湧電流過大,MOSFET 將承受極大的功率耗散(此時 VDS 接近最大值,因為 VOUT 為 0V)。若為多顆並聯 MOSFET 的高功率應用,最壞情況下可能只有一顆 MOSFET 導通全部浪湧電流,原因在於 MOSFET 的 VGS 啟動電壓存在差異。

Simplified Application Circuit

圖 5. 簡化應用電路圖

Start-Up Sequence (VIN=50V, CGATE=22nF, COUT=2400μF, tSTART=72ms, IINRUSH=1.7A)

圖 6. 啟動過程波形 (VIN=50V, CGATE=22nF, COUT=2400μF, tSTART=72ms, IINRUSH=1.7A)

為避免啟動即短路的情形,RTQ1954 具有快速過電流保護 OCP1,當電流達到 IOCP1 門檻(RSNS 上的壓降超過 2mV)時,就會立即關閉外部 MOSFET。此保護機制是即時反應,不需要任何等待時間才進行電流或功率限制。此設計可顯著降低啟動初期 MOSFET 所承受的壓力,尤其在 MOSFET 承受高電壓差時。

Start into Short, as the Current Reaches IOCP1 (10A), the <a href=RTQ1954 Shuts Down Immediately">

圖 7. 啟動即短路,當電流達 IOCP1 (10A) 時,RTQ1954 立即開閉外部 MOSFET

2.2 穩態運作保護 OCP2

啟動完成後,熱插拔控制器需持續監控電流狀況,針對異常過電流提供保護。RTQ1954 會主動偵測 RSNS 上的電壓來量測負載電流。當電流達到 IOCP2 門檻 (IOCP2=VOCP2/RSNS) 時,故障計時器將開始以 2.5μA 電流對 CTIMER 充電。若在計時器達到故障超時時間(CTIMER 電壓達 3.9V)之前電流回至 IOCP2 以下,RTQ1954 會恢復正常運作,並以 20μA 電流對 CTIMER 放電;若電流無法降至IOCP2 以下,則會關閉 MOSFET,並以 20μA 進行放電。tOCP2 的超時時間可透過電容設定。

image009

OCP2 Protection Mechanism.

圖 8. OCP2 過電流保護機制示意圖

透過多階段 OCP 架構,第一層保護不需設在預期最大負載之上,避免系統暴露於無法偵測的 soft short 狀況。建議將 IOCP2 設定略高於平均電流 IDC(需考量 IOCP2 的誤差容忍度與輸入電壓 VIN 的波動),作為針對持續性過電流,如 soft short,或高於預期持續時間的瞬態過載防護。

VOCP2 門檻值可透過 PMBus 設定(範圍為 10mV 至 55mV,1mV 增額),也可經由硬體方式,使用 CL 與 AUX 腳位進行設定。此設計提供高度彈性,無需更換感測電阻 RSNS,即可調整 IOCP2 設定值。

TIMER Starts Ramping when Current Reaches I<sub>OCP2</sub>=200A. The Current Drops below I<sub>OCP2</sub> before the TIMER Expires (V<sub>TIMER</sub><3.9V). (VIN=50V, R<sub>SNS</sub>=0.25mΩ, V<sub>OCP2</sub>=50mV, C<sub>TIMER</sub>=0.68nF, t<sub>OCP2</sub>=1.19ms)

圖 9. 當電流達到 IOCP2=200A 時,計時器開始上升;若電流在計時器超時前可降至 IOCP2 以下 (VTIMER<3.9V),則不會觸發故障。(VIN=50V, RSNS=0.25mΩ, VOCP2=50mV, CTIMER=0.68nF, tOCP2=1.19ms)

TIMER Starts Ramping when Current Reaches I<sub>OCP2</sub>=200A. The Current Does Not Drop below I<sub>OCP2</sub> before the TIMER Expires (V<sub>TIMER</sub><3.9V) and Faults. (VIN=50V, R<sub>SNS</sub>=0.25mΩ, V<sub>OCP2</sub>=50mV, C<sub>TIMER</sub>=0.68nF, t<sub>OCP2</sub>=1.19ms)

圖 10. 當電流達到 IOCP2=200A 時,計時器開始上升;若電流未在計時器超時前降至 IOCP2 以下 (VTIMER<3.9V),則觸發故障保護。 (VIN=50V, RSNS=0.25mΩ, VOCP2=50mV, CTIMER=0.68nF, tOCP2=1.19ms)

2.3 穩態運作保護 OCP3

在寬範圍動態負載曲線中,電流脈衝可能超過 2 倍 IDC,且持續時間從數微秒 (us) 至數百微秒不等。熱插拔控制器必須允許此類短時間突波通過,同時還能對真實故障狀況提供保護。RTQ1954 可提供另一層保護機制 OCP3,其門檻高於 OCP2,可允許持續時間小於 0.5ms(遮蔽時間 blanking time)的高電流短脈衝通過。IOCP3 的觸發門檻是以 IOCP2 為基準,再加上一個定量設定如下。

image013

若電流脈衝超過 IOCP3 門檻,且持續時間超過 0.5ms 的遮蔽時間,RTQ1954 將關閉外部 MOSFET 以啟動保護機制。反之,若脈衝持續時間短於遮蔽時間,RTQ1954 將恢復正常運作,並立即重置遮蔽計時器,確保不規則或重複出現的短脈衝可順利通過而不誤觸發故障。

The Load Current Pulse above I<sub>OCP3</sub>=260A Lasts Less than the Blanking Time (t<sub>BLANK</sub>=0.5ms), the Pulse will Go Through without Tripping a Fault.

圖 11. 當負載電流脈衝超過 IOCP3=260A,但持續時間小於遮蔽時間 (tBLANK=0.5ms) 時,該脈衝將可通過而不會觸發故障保護。

2.4 斷路器保護 CB

斷路器保護是應對過電流事件(如輸出短路)時的最終防線,尤其當電流上升速度遠快於 IOCP2 或 IOCP3 的觸發時間時。當感測電阻 RSNS 上的跨壓超過所設定的 VCB 門檻(可選擇 50mV、100mV 或 200mV)時,RTQ1954 將立即關閉外部 MOSFET。當電流降至 ICB 門檻以下後,RTQ1954 允許 MOSFET 再次導通,而非維持鎖定關閉狀態,這是為了避免將突如其來的輸入電壓變化,誤判為短路故障並導致系統關閉。假設短路故障仍持續存在,OCP2 或 OCP3 將會再次觸發保護機制。請注意,在 CB 事件發生後,為能快速關斷 MOSFET 並限制其功耗於安全操作區域 (SOA) 內,TIMER 腳位的充電電流(用於設定 OCP2 計時器)將會提升至 25µA,為原設定值的 10 倍。

A screen shot of a computer AI-generated content may be incorrect.

圖 12. 在CB 保護動作結束後,RTQ1954 將允許 MOSFET 再次導通(不進行電流限制);若短路狀況仍存在,OCP2 或 OCP3 會啟動保護。為快速關閉 MOSFET,TIMER 腳位的電流提升至 25µA。自動重試功能關閉,輸入電壓變為 VIN=50V。



3. 識別重複性過電流脈衝,提升系統判斷準確性

AI 負載曲線的一大特性是具備重複性的過電流脈衝,其占空比甚至可超過 50%。作為系統電源入口的熱插拔控制器必須能區分這類重複性突波與持續性的過電流故障,以避免誤觸發保護機制。RTQ1954 會在電流低於 OCP2/OCP3 門檻時,立即重置故障計時器 (fault timer),有效解決此問題,才能隨時準備應對下一次脈衝。

RTQ1954 的 OCP3 為數位計時器,當電流降至 IOCP3 以下時,會立即重置故障計時器;OCP2 則為類比計時器,由 CTIMER 控制。當電流超過 IOCP2 時,CTIMER 以 2.5μA 的電流充電;當 OCP2 狀況結束(不論 VTIMER 是否已達 3.9V),CTIMER 將以 20μA 進行放電。這種 8:1 的放電或充電電流比可確保 VTIMER 在下一次 OCP2 事件發生前,回到初始電壓(0V),以防止 VTIMER 因持續累積的電壓,進而誤判為故障。

RTQ1954 的 OCP2 設計具備「非累積」條件,容許負載占空比最高達 88%(以超過 IOCP2 的負載脈衝為定義),使其能在面對各種寬範圍且不可預測的過電流情況時,避免誤觸發故障保護機制。

Repetitive Load Pulses (ILOAD>I<sub>OCP2</sub>) with Duty Cycle of 87%. The <a href=RTQ1954 VTIMER Does Not Accumulate and Avoids False Fault Tripping up to 88% Load Pulse Duty Cycle.">

圖 13. 當負載電流脈衝 (ILOAD > IOCP2) 具有 87% 的占空比時,RTQ1954 的 VTIMER 不會累積電壓,進而有效防止誤判故障。



4. 有效偵測 Soft Short ,強化系統保護

當輸出端因為較大的阻抗而短路時,雖然電流未明顯上升,某些熱插拔控制器可能無法偵測到此類稱為 soft short 的短路情形,進而導致系統過熱甚至失效。尤其是當系統只具備單一過電流保護機制(不含斷路器)時,此問題更為嚴重,因為該保護門檻通常會設定為高於平均電流 IDC 的 50% 甚至 100% 以上,雖然是為了增加容錯值以及避免因動態負載而誤觸保護機制,但會影響偵測正確性。

RTQ1954 採用多階段 OCP 設計,透過 OCP2 與 OCP3 設定不同的電流範圍,有效解決此問題。因此,凡是高於 OCP2 門檻的 soft short 電流皆可被偵測,讓系統散熱設計人員可依 OCP2 電流水準來規劃電路板熱承受能力,無需以 2 倍 IDC 為設計依據,可降低系統成本並提升可靠性。

image017

Example of a Soft Short and Potential Failure with Other Hot Swap Controllers Having Only One Level of Overcurrent Protection (I<sub>LIM</sub>=300A). MOSFET Case Temperature Reaching 180°C, at 285A after 4 Minutes.

圖 14. Soft Short 情況示意,以及其他僅具單一過電流保護等級 (ILIM=300A) 熱插拔控制器可能發生的故障風險。當電流達 285A 且持續 4 分鐘後,MOSFET 外殼溫度上升至 180°C。



5. 實現與保護機制獨立的散熱設計

在高功率應用中,熱插拔控制器通常會驅動多顆並聯的外部 MOSFET。在穩態條件下,各 MOSFET 會根據電路板佈局與其 RDSon 差異分攤電流。傳統的熱插拔控制器散熱設計需配置足夠數量的 MOSFET,以確保其接面溫度 (TJ) 維持在最大工作範圍內。本應用所使用的 MOSFET 為 PSMN2R3-100SSE,在 25°C 時具有低 RDSon 值 (2.28mΩ),其最高接面溫度為 175°C。為使 MOSFET 的 TJ(對此類封裝而言,TJ 與外殼溫度近似)維持在建議的 DC 操作接面溫度 TJ,DC 以下(建議值為 120°C,因應動態暫態時溫度變化),所需並聯的 MOSFET 數量需依以下公式計算:

image019

其中 TA 為環境溫度。由於 MOSFET 的導通電阻 RDSon 與其接面溫度密切相關,實際應用中可能需反覆計算上述公式數次,以求得 RDSon 與 TJ,DC 的關係值。根據 MOSFET 規格書,當溫度從 25°C 上升至 120°C 時,RDSon 將增加約 1.8 倍,這樣的變化使計算得到的 TJ,DC 接近設計目標,通常無需再進一步修正。

image020

這套 8.5kW(50V × 170A,直流平均功率)的熱插拔控制器系統是透過 6 顆 MOSFET 及 15°C/W 的接面至環境熱阻實現(此熱阻值高度依賴於電路板散熱設計、散熱片配置與氣流條件)。若系統的熱阻高於此案例,則需使用更多顆 MOSFET,或降低環境溫度,以滿足 TJ,DC 的熱設計要求。

熱插拔控制器的散熱設計為何與保護機制設定有關?

關鍵在於第一層過電流保護的觸發門檻。系統能夠持續承受的電流,必須得低於此保護門檻。若第一層 OCP 設定為 2 倍 IDC,這是常見於避免 AI 動態負載誤判的設定情境,則熱設計也需以 2 × IDC 為依據,導致在相同直流功率下需配置更多顆 MOSFET。

然而,在 RTQ1954 中,IOCP2 設定略高於 IDC,代表所有高於 IOCP2 的過電流(包括持續性的 soft short)都能被偵測。如此一來,熱設計便可依據 IOCP2 進行,因其接近 IDC,可大幅降低所需的 MOSFET 數量,達成更有效率的系統設計。

值得一提的是,多數他廠熱插拔控制器具備外部熱保護機制,可用於監測像是 MOSFET 等元件的溫度。然而,本應用所使用的 MOSFET 具有數十秒等級(甚至更高)的熱時間常數,遠大於過電流保護機制的毫秒級反應時間。此外,熱插拔控制器通常僅能監控單一位置的溫度,若系統中使用多顆 MOSFET,則各顆元件間的溫度差異可能無法被偵測,增加熱失效風險。RTQ1954 讓熱插拔控制器系統的散熱設計可依據實際直流電流進行最佳化,無需依據較高的過電流保護門檻來設計,在相同平均直流功率下可減少所需的 MOSFET 數量,提升系統效率與成本效益。



6. 結論

現代 AI 應用的工作負載具有寬範圍且高動態的瞬態負載特性,對作為系統入口的熱插拔控制器帶來極大挑戰。熱插拔控制器必須能準確分辨短時間電流突波、重複性的過電流脈衝以及持續性的 soft short,且在此過程中不應中斷負載供電,更重要的是不能讓系統關機。RTQ1954 熱插拔控制器透過多階段過電流保護 (OCP) 機制,有效解決上述問題。此架構不會限制電流,因而不會影響負載行為,且可依動態 AI 工作負載進行彈性調整,同時避免誤判故障。隨著現代 xPU 系統功率需求持續上升,RTQ1954 系統的散熱設計可針對平均直流功率進行優化,可在 DC 電流水準以上的各種過電流情境中提供完整防護,實現兼具效能與可靠性的電源系統設計。

若要獲得更多產品的產品資訊,請 訂閱我們的電子報




相關資源
立錡科技電子報 訂閱立錡科技電子報
檔案下載 PDF 下載
TOP